用多腿机器人的动态跳跃在规划和控制方面提出了一个具有挑战性的问题。制定跳转优化以允许快速在线执行难;有效地使用这种能够生成长地平轨迹的能力进一步复杂化问题。在这项工作中,我们提出了一种新的分层规划框架来解决这个问题。我们首先制定了一个实时的轨道轨迹优化,用于执行全向跳跃。然后,我们将该优化的结果嵌入到低维跳转可行性分类器中。该分类器由高级策划器利用,以产生动态可行的路径,并且对硬件轨迹实现中的可变性也很稳健。我们在迷你猎豹视觉上部署我们的框架,展示了机器人的生成和执行可靠的目标导向路径,这些路径涉及前进,横向和旋转跳跃到比机器人的标称臀部高度高1.35倍。通过全向跳跃计划的能力极大地扩展了机器人相对于限制跳跃到矢状或前平面的规划者的移动性。
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
We present the Habitat-Matterport 3D Semantics (HM3DSEM) dataset. HM3DSEM is the largest dataset of 3D real-world spaces with densely annotated semantics that is currently available to the academic community. It consists of 142,646 object instance annotations across 216 3D spaces and 3,100 rooms within those spaces. The scale, quality, and diversity of object annotations far exceed those of prior datasets. A key difference setting apart HM3DSEM from other datasets is the use of texture information to annotate pixel-accurate object boundaries. We demonstrate the effectiveness of HM3DSEM dataset for the Object Goal Navigation task using different methods. Policies trained using HM3DSEM perform outperform those trained on prior datasets. Introduction of HM3DSEM in the Habitat ObjectNav Challenge lead to an increase in participation from 400 submissions in 2021 to 1022 submissions in 2022.
translated by 谷歌翻译
人类对象与铰接物体的相互作用在日常生活中很普遍。尽管单视图3D重建方面取得了很多进展,但从RGB视频中推断出一个铰接的3D对象模型仍然具有挑战性,显示一个人操纵对象的人。我们从RGB视频中划定了铰接的3D人体对象相互作用重建的任务,并对这项任务进行了五个方法家族的系统基准:3D平面估计,3D Cuboid估计,CAD模型拟合,隐式现场拟合以及自由 - 自由 - 形式网状配件。我们的实验表明,即使提供了有关观察到的对象的地面真相信息,所有方法也难以获得高精度结果。我们确定使任务具有挑战性的关键因素,并为这项具有挑战性的3D计算机视觉任务提出指示。短视频摘要https://www.youtube.com/watch?v=5talkbojzwc
translated by 谷歌翻译
键形对于搜索和系统化学术文档至关重要。大多数用于键形提取的方法是针对文本中最重要的单词的提取。但是实际上,密钥拼列表通常包含明确出现在文本中的单词。在这种情况下,键形列表表示源文本的抽象摘要。在本文中,我们使用基于流行的变压器的模型进行试验,以使用四个基准数据集进行键形式提取,以进行抽象文本摘要。我们将获得的结果与常见的无监督和监督方法的结果进行了比较。我们的评估表明,按照全匹配的F1分数和BertScore的术语,汇总模型在生成钥匙串方面非常有效。但是,它们产生的许多单词在作者的键形列表中没有,这使得摘要模型在Rouge-1方面无效。我们还研究了几种订购策略来连接靶标键形。结果表明,策略的选择会影响键形生成的性能。
translated by 谷歌翻译
鲁棒性是机器学习(ML)分类器的基本支柱,实质上确定了它们的可靠性。因此,评估分类器鲁棒性的方法至关重要。在这项工作中,我们解决了评估腐败鲁棒性的挑战,该方式允许在给定数据集上可比性和解释性。我们提出了一种测试数据增强方法,该方法使用稳健性距离$ \ epsilon $从数据集中衍生的最小类分隔距离。由此产生的MSCR(平均统计损坏鲁棒性)允许对不同分类器在腐败鲁棒性方面进行特定于数据集的比较。 MSCR值是可以解释的,因为它代表了由于统计损坏而避免了准确性损失的分类器。在2D和图像数据上,我们表明度量标准反映了分类器鲁棒性的不同级别。此外,我们通过训练和测试不同级别的噪声测试分类器观察到分类器中意外的最佳精度。虽然研究人员经常在训练健壮的模型时经常报道准确性的重大权衡,但我们加强了这样一种观点,即准确性和腐败鲁棒性之间的权衡并不是固有的。我们的结果表明,通过简单数据增强,稳健性训练已经可以稍微提高准确性。
translated by 谷歌翻译
建筑环境中许多物体的形状由他们与人体的关系决定:一个人将如何与这个对象进行互动? 3D形状的现有数据驱动的生成模型产生合理的物体,但不会理由对人体的那些物体的关系。在本文中,我们学习了3D形状的身体感知生成模型。具体而言,我们培养椅子的生成型号,一种无处不在的形状类别,可以在给定的身体形状或坐姿姿势调节。身体形状调节的型号生产椅子,为具有给定体形的人舒适;姿势调节模型生产适应坐姿的椅子。要训​​练这些模型,我们定义了“坐姿匹配”度量标准和小说“坐姿舒适”度量。计算这些指标需要昂贵的优化将身体置于椅子上,这太慢被用作用于训练生成模型的损耗功能。因此,我们训练神经网络以有效地近似这些度量。我们使用我们的方法培训三个身体感知生成形状模型:基于结构的零件的发电机,点云发生器和隐式表面发生器。在所有情况下,我们的方法都生产适应其输出椅形状以输入人体规格的型号。
translated by 谷歌翻译
现实的3D室内场景数据集在计算机视觉,场景理解,自主导航和3D重建中启用了最近的最近进展。但是,现有数据集的规模,多样性和可定制性有限,并且扫描和注释更多的耗时和昂贵。幸运的是,组合者在我们方面:现有3D场景数据集有足够的个别房间,如果有一种方法可以将它们重新组合成新的布局。在本文中,我们提出了从现有3D房间生成新型3D平面图的任务。我们确定了这个问题的三个子任务:生成2D布局,检索兼容3D房间,以及3D房间的变形,以适应布局。然后,我们讨论解决问题的不同策略,设计两个代表性管道:一个使用可用的2D楼层计划,以指导3D房间的选择和变形;另一个学习检索一组兼容的3D房间,并将它们与新颖的布局相结合。我们设计一组指标,可评估所生成的结果与三个子任务中的每一个,并显示不同的方法在这些子任务上交易性能。最后,我们调查从生成的3D场景中受益的下游任务,并讨论选择最适合这些任务的需求的方法。
translated by 谷歌翻译
我们介绍了栖息地2.0(H2.0),这是一个模拟平台,用于培训交互式3D环境和复杂物理的场景中的虚拟机器人。我们为体现的AI堆栈 - 数据,仿真和基准任务做出了全面的贡献。具体来说,我们提出:(i)复制:一个由艺术家的,带注释的,可重新配置的3D公寓(匹配真实空间)与铰接对象(例如可以打开/关闭的橱柜和抽屉); (ii)H2.0:一个高性能物理学的3D模拟器,其速度超过8-GPU节点上的每秒25,000个模拟步骤(实时850x实时),代表先前工作的100倍加速;和(iii)家庭助理基准(HAB):一套辅助机器人(整理房屋,准备杂货,设置餐桌)的一套常见任务,以测试一系列移动操作功能。这些大规模的工程贡献使我们能够系统地比较长期结构化任务中的大规模加固学习(RL)和经典的感官平面操作(SPA)管道,并重点是对新对象,容器和布局的概括。 。我们发现(1)与层次结构相比,(1)平面RL政策在HAB上挣扎; (2)具有独立技能的层次结构遭受“交接问题”的困扰,(3)水疗管道比RL政策更脆。
translated by 谷歌翻译
对于顺序数据,更改点是突然的制度交换机的时刻。这种更改出现在不同的场景中,包括复杂的视频监控,并且我们需要尽可能快地检测它们。由于没有足够的数据表示学习程序,改变点检测(CPD)的经典方法对于半结构化的顺序数据而言。我们提出了一个原则性的损失函数,近似于经典严谨的解决方案,但有所不同,并实现了代表学习。此损耗函数余额将检测延迟和时间变平衡,以为CPD提供成功的模型。在实验中,我们考虑简单的系列和更复杂的真实图像序列和具有变化点的视频。对于更复杂的问题,我们表明我们需要针对CPD任务的特殊性量身定制的更有意义的陈述。考虑到这一点,所提出的方法临时改善了CPD的基线结果,以了解各种数据类型。对于爆炸检测,与基线相比,我们的方法的F1分数为0.54美元,价格为0.46美元和0.30美元。
translated by 谷歌翻译